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摘要 : [目的 /意义 ] 基于 文章 的 关键 词 和 标题 分 词 ， 分 析 关 键 词 和 标题 分 词 的 多 样 性 以 及 基于 二 
者 绘制 的 知识 图 谱 的 差异 。[ 方 法 /过 程 ] RRP AAA 2010 - 2019 年 研究 主题 为 “学 术 不 端 ” 的 相 
关 论 文 ， 采 用 多 样 性 指数 定量 分 析 文 章 关 键 词 和 标题 分 词 的 特征 ， 并 通过 CiteSpace 软件 定性 比较 基于 
关键 词 和 标题 分 词 所 绘制 知识 图 谱 的 架构 。[ 结果/ 结论 ] 关键 词 的 丰富 度 (8) 、 多 样 性 (MW) 和 均匀 
度 指数 ( Ej) 均 异 于 标题 分 词 ,， 且 两 个 单元 的 相似 性 较 弱 , 表明 文章 关键 词 和 标题 分 词 是 两 个 不 同 的 单元 
基于 此 绘制 的 知识 图 谱 虽 有 差异 ， 但 二 者 均 能 从 各 自 的 角度 展示 “学术 不 端 ”领域 的 研究 主题 。 
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引用 格式 : 李 继 红 , RES, 江 珊 ,等 . 文章 关键 词 和 标题 分 词 多 样 性 及 其 绘制 知识 图 谱 的 比较 [WOL]. 
知识 管理 论坛 ,2021, 6(1): 46-55[ 引用 日 期 ]. http://www.kmf.ac.cn/p/239/. 


知识 图 谱 是 通过 将 应 用 数学 、 图 形 学 、 信 
息 科 学 等 学 科 的 理论 、 方 法 与 计量 学 引文 分 析 、 
共 现 分 析 等 方法 结合 ， 并 利用 可 视 化 的 图 谱 形 
象 地 展示 学 科 的 核心 结构 、 发 展 历史 、 前 沿 领 
域 以 及 整体 知识 架构 达到 多 学 科 融 合 的 现代 理 
论 。 它 可 以 把 复杂 的 知识 领域 通过 数据 挖掘 、 
信息 处 理 、 知 识 计量 和 图 形 绘制 显示 出 来 ， 揭 
示 知 识 领域 的 动态 发 展 规律 ， 为 学 科研 究 提供 
有 价值 的 参考 中。 目前 ,知识 图 谱 的 绘制 工具 有 


多 种 类 型 ， 主 要 包括 CiteSpace, HistCite, Sci2 
Tools, Leydesdorff, Ucinet, Pajek, VOSviewer 
“Pl, H, CiteSpace 是 应 用 最 广泛 、 功 能 最 
强大 的 信息 可 视 化 软件 ， 可 通过 选择 节点 类 型 
进行 相应 的 共 被 引 网 络 、 共 现 网 络 或 合作 网 络 
的 分 析 ,进而 形成 可 视 化 .序列 化 的 知识 图 谱 广 。 

在 所 发 表 的 CiteSpace 相关 论文 中 ， 对 关键 
词 进行 共 现 分 析 的 占 了 较 大 比例 。 关 键 词 是 为 
了 文献 标 引 工作 ， 从 报告 、 论 文中 选取 出 来 以 
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表示 全 文 主题 内 容 信 息 款 目 的 单词 或 术语 中。 
从 文献 库存 储 信息 的 特点 形式 来 说 ， 关 键 词 是 
摘要 的 “摘要 ”， 高 度 概括 了 论文 主题 ， 集 中 
表达 了 论文 内 容 的 核心 和 精髓 。 对 论文 的 关键 
词 进行 共 现 分 析 ， 可 以 探讨 研究 领域 的 热点 、 
趋势 以 及 知识 结构 等 。 而 对 于 没有 关键 词 的 数 
据 源 (论文 标题 、 基 金 项 目 、 网 络 与 情 、 影 评 ) 
进行 分 析 时 ， 主 要 采用 中 文 分 词 的 方法 1。 分 
词 就 是 将 连续 的 字 序 列 按照 一 定 的 规范 重新 组 
合成 词 序列 的 过 程 。 论 文 标题 是 标明 文章 内 容 
的 简短 语句 ， 是 文章 最 重要 的 部 分 。 对 论文 标 
题 进行 分 词 ， 可 以 得 到 涵盖 文章 内 容 和 主旨 的 
词语 。 

论文 关键 词 和 标题 分 词 都 能 揭示 论文 的 主 
题 内 容 ， 那 么 对 于 同一 篇 文章 ， 关 键 词 和 标题 
分 词 有 何 关联 ， 基 于 二 者 绘制 的 知识 图 谱 又 存 
在 什么 差异 ? 本 研究 以 中 国 知 网 (CSSCI 来 源 
期 刊 ) 为 统计 源 ， 疏 取 以 “学 术 不 端 ” 为 主题 
的 研究 文献 ， 并 采用 多 样 性 指数 定量 分 析 关 键 
词 和 标题 分 词 的 特征 ， 依 托 CiteSpace 软件 定性 
分 析 基 于 关键 词 和 标题 分 词 所 绘制 知识 图 谱 的 
架构 差异 。 该 研究 不 仅 可 以 为 相关 研究 提供 一 
定 的 理论 基础 ， 还 有 着 积极 的 应 用 意义 。 


@ 数 据 来 源 及 分 析 方 法 


1.1 数据 来 源 

笔者 以 中 国 知 网 (CSSCI 来 源 期 刊 ) 为 数 
据 统 计 源 ， 检 索 人 研究 主题 为 “学 术 不 端 ”的 学 
术 论 文 。 检 索 式 为 : “主题 = 学 术 不 端 or 学 术 
造假 or 学 术 道德 or 科研 诚信 ”; 论文 发 表 时 间 
为 2010 — 2019 年 。 检 索 时 间 为 2019 年 10 H 
24 日 ， 吻 除 通 知 、 征 文 、 声 明 等 ， 清 洗 后 共 得 
到 757 RRM, FER. I Awa, 
题 录 信 息 主要 包括 论文 标题 、 作 者 、 关 键 词 等 
字段 。 
1.2 分 析 方 法 
1.2.1 标题 分 词 

对 论文 标题 进行 分 词 处 理应 遵循 如 下 原则 : 
应 选择 能 明确 表达 主题 概念 的 词语 ; @ 筛 除 
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无 意义 的 词语 ; @ 对 名 称 内 含义 相同 但 是 表述 
不 同 的 词汇 进行 合并 。 例 如 ， 学 术 不 端 、 学 术 
腐败 等 词 规范 化 处 理 后 统一 为 “学 术 不 端 行为 ”， 
AMLC、 学 术 不 端 检测 系统 等 统一 为 “学 术 不 
端 文献 检测 系统 ”。 
基于 以 上 分 词 原则 ， 采 用 武汉 大 学 研发 的 
ROSTCM6 软件 对 项 目 名 称 进行 分 词 。 直 接 获 
得 的 关键 词 的 粒度 比较 粗糙 ,， 聚 类 效果 不 理想 ， 
可 通过 人 工 标注 的 方式 补充 添加 用 户 词 典 ， 使 
其 达到 研究 要 求 。 再 采用 数据 清洗 器 对 分 词 后 
的 词语 进行 清洗 、 合 并 。 
1.2.2 关键 词 和 标题 分 词 多 样 性 分 析 
多 样 性 一 直 常 见于 生态 学 名 词 ， 常 用 的 多 
样 性 指数 主要 包括 丰富 度 指 数 ( Richness index, 
S )、Shannon-Wiener 多 样 性 指数 ( Shannon-Wiener 
diversity index, H') 、Pielou 均匀 度 指数 (Pielou 
evenness index, E,,) 等 ， 可 用 于 判断 群落 或 生态 
系统 的 多 样 性 、 复 杂 性 "了 。 本 研究 中 ， 借 用 上 
述 3 个 指数 来 描述 关键 词 和 标题 分 词 的 多 样 性 。 
厅 =-》 Phmm=-> (n,/ N)In(n,/ N) 
公式 (1) 
Ep =H'/ Hx = H/S 公式 (2) 
式 中 ,5 为 关键 词 或 标题 分 词 的 词语 数量 ; 
P; 为 关键 词 或 标题 分 词 词语 i 的 相对 丰 度 ， 代表 
某 一 词语 的 数量 在 所 有 词语 总 量 中 所 占 的 比率 ， 
即 已 = n/N, ni 是 关键 词 或 标题 分 词 词语 i 的 数 
量 , 和 N 是 所 有 关键 词 或 标题 分 词 的 数量 。 
为 了 对 关键 词 和 标题 分 词 两 个 单元 的 相似 
性 进行 研究 ， 笔 者 借用 Sorensen 指数 (Cs) 和 
Jaccard 指数 (C,) 对 二 者 进行 分 析 。Serensen 
指数 和 Jaccard 指数 是 生态 学 中 用 于 反映 群落 间 
物种 组 成 相似 性 的 指数 中， 这 里 用 来 反映 单元 
间 词 语 的 相似 性 。 
C=2c/(a+b) 公式 (3) 
CFc/(atb-c) 公式 (4) 
AP, e 为 关键 词 和 标题 分 词 两 个 单元 的 共 
有 词语 数 ; a 和 分别 为 关键 词 和 标题 分 词 的 词 
语 数 。 
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KM 
1.2.3 标题 分 词 格式 转化 

众所周知 ，CiteSpace 软件 只 能 分 析 特 定数 
据 库 中 的 文献 ， 还 不 能 直接 用 于 其 他 数据 库 。 
笔者 采用 格式 转化 软件 对 非特 定数 据 库 中 的 数 
据 进 行 转化 处 理 ， 使 之 成 为 CiteSpace 软件 能 够 
识别 的 数据 ， 从 而 进行 相关 的 分 析 。 
1.2.4 关键 词 和 标题 分 词 共 现 分 析 

关键 词 或 标题 分 词 共 现 分 析 就 是 对 数据 集 
中 关键 词 或 标题 分 词 集合 进行 分 析 ， 通 过 对 关 
键 词 或 标题 分 词 的 可 视 化 分 析 可 以 确定 研究 领 
域 的 学 科 结 构 、 研 究 热 点 等 。 笔 者 分 别 采用 “学 
术 不 端 ” 人 研究 文献 的 关键 词 和 标题 分 词 集合 为 
分 析 单 元 ， 依 托 CiteSpace 绘制 主题 聚 类 图 ， 从 
而 比较 该 领域 的 知识 架构 。 

可 视 化 分 析 的 参数 设置 如 下 : 时 间 跨 
度 设置 为 2010 - 2019 年 ， 时 间 切 片 (Time 
Slicing) 为 1 年 ; 节点 类 型 (Node Types ) 确 
定 为 keyword; 节点 强度 (Links ) 默认 Cosine 
与 Within Slices 选项 ; 选择 阐 值 (Selection 
Criteria ) 选取 Top N per slice=50; 网 络 裁剪 功 
能 区 (Pruning) 默认 不 进行 剪裁 ， 最 终生 成 关 
键 词 和 标题 分 词 共 现 知识 图 谱 。 


@ 关 键 词 和 标题 分 词 的 多 样 性 比较 


2.1 关键 词 和 标题 分 词 的 词语 组 成 

笔者 对 “学 术 不 端 ” 相 关 文 献 的 关键 词 和 
标题 分 词 进行 统计 分 析 ， 分 别 得 到 3 131 个 关键 
词 和 3 094 个 标题 分 词 ， 把 各 个 单元 的 相同 项 进 
行 整理 ， 最 终 获 得 1 541 个 关键 词 词语 和 1 432 
个 标题 分 词 词语 。 

关键 词 和 标题 分 词 出 现 的 频次 以 及 该 词 频 
下 词语 的 数量 见 表 1。 从 表 1 可 以 看 出 ， 出 现 频 
次 最 高 (344 次 ) 的 关键 词 是 学 术 不 端 行为 ， 
然后 依次 是 科研 诚信 ( 95 次 ) 和 学 术 道 德 (77 
次 ) ， 出 现 频次 最 少 的 为 1 次 。 随 着 词 频 的 下 
Ke, 该 词 频 下 关键 词 的 数量 旦 上 升 趋势 ， 例 如， 
学 术 不 端 行为 、 科 研 诚信 、 学 术 道 德 、 研 究 生 
的 词 频 较 高 ， 该 词 频 下 的 关键 词 数 量 较 少 (1 
个 ) ; 而 词 频 为 3 次 以 下 的 关键 词 则 较 多 ， 词 
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频 为 2 的 关键 词 为 147 个 ， 词 频 为 1 的 有 1 254 
个 ， 占 比 高 达 40%。 出 现 频次 最 高 的 标题 分 词 
也 是 学 术 不 端 行为 ， 达 到 268 次 ; 排名 第 2 和 
第 3 的 分 别 是 研究 生 和 高 校 ， 出 现 频次 分 别 为 
107 和 84 次 ; 出 现 最 少 的 词 频 也 是 1 次 ， 出 现 
频次 为 1 的 词语 共有 1 094 个 ， 占 所 有 标题 分 词 
的 35.36%。 

对 于 “学 术 不 端 ”的 研究， 论文 关键 词 比 
标题 分 词 多 37 个 ; 所 整理 的 词语 ， 前 者 比 后 者 
多 109 个 (7.61%) ， 说 明 论文 自 带 的 关键 词 比 
标题 分 词 后 的 词语 要 丰富 。 但 出 现 频次 较 高 的 
一 些 词语 还 是 比较 一 致 的 ， 比 如 学 术 不 端 行为 、 
研究 生 、 高 校 、 科 研 诚信 、 科 技 期 刊 等 。 说 明 
不 管用 标题 分 词 还 是 论文 关键 词 ， 最 核心 的 词 
语 是 不 变 的 ， 而 且 在 这 两 种 方法 中 ， 随 着 词 频 
的 下 降 , 该 词 频 下 的 词语 数量 均 呈 现 上 升 趋势 。 
2.2 关键 词 和 标题 分 词 的 多 样 性 

基于 文章 关键 词 和 标题 分 词 的 词 频 以 及 该 
词 频 下 词语 的 数量 ， 本 研究 对 这 两 个 单元 ( 关 
键 词 和 标题 分 词 ) 的 词语 多 样 性 进行 了 分 析 。 
用 CiteSpace 可 视 化 软件 绘制 知识 图 谱 时 ， 词 语 
的 出 现 频次 设 定 阔 值 为 >2 次 ， 因 此 除了 对 两 个 
单元 内 所 有 词语 进行 统计 外 ， 还 对 出 现 频 次 >2 
词语 的 多 样 性 进行 了 分 析 。 

研究 主要 采用 丰富 度 指数 (S). Shannon- 
Wiener 多 样 性 指数 ( H') 、 均 匀 度 指数 (Er ) 、 
Sorensen 指数 (Cs) 和 Jaccard 指数 (C)) ， 从 
单元 内 、 单 元 间 两 个 层面 对 文章 的 关键 词 和 标 
题 分 词 进行 多 样 性 的 分 析 ， 以 探索 表达 相同 主 
题 而 来 源 不 同 的 词语 在 数量 、 丰 度 、 分 布 情况 
等 方面 的 差异 以 及 二 者 的 相似 性 。 其 中 ， 丰 富 
度 指 数 、Shannon-Wiener 多 样 性 指数 、 均 匀 度 
KAUR T a 多样 性 指数 ， 主 要 用 于 研究 单元 内 
词语 的 结构 多 样 性 。 丰 富 度 指数 (5) 的 大 小 
反映 了 词语 数量 的 多 少 ; Shannon-Wiener 多 样 
性 指数 (A!) 是 基于 词语 数量 来 反映 单元 内 词 
语 的 多 样 性 ，H' 值 越 大 ， 表 示 单 元 所 含 的 信息 
量 就 越 大 ， 词 语 的 多 样 性 就 越 高 ; 均匀 度 指 数 
(E,) 可 反映 单元 内 词语 的 均匀 度 ，Ej 数值 越 
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高 ， 表 明 各 个 词语 的 数量 越 接近 ; Sorensen 指 ”分 析 研 究 单元 间 词 语 的 相似 性 ， 数 值 越 大 ,说 
数 和 Jaccard 指数 属于 多 样 性 指数 ， 主 要 用 于 明 两 个 单元 越 相似 ， 一 致 性 越 高 。 


表 1 关键 词 和 标题 分 词 的 统计 性 描述 


学 术 不 端 行为 344 1 学 术 不 端 行为 268 1 
科研 诚信 95 1 研究 生 107 1 
学 术 道 德 77 1 高 校 84 1 
研究 生 67 1 科研 诚信 48 1 
学 术 规 范 49 1 学 术 道 德 46 1 
科技 期 刊 46 1 科技 期 刊 43 1 
学 术 期 刊 44 1 治理 34 1 
学 术 不 端 文献 检测 系统 42 1 对 策 、 学 术 不 端 文献 检测 系统 29 2 
高 校 38 1 启示 28 1 
应 对 策略 31 1 科技 论文 、 美 国 24 2 
编辑 T i 学 术 期 刊 、 期 刊 编辑 、 学 术 规 33 i 
范 等 
学 术 不 端 文献 检测 19 1 大 学 生 、 高 校 教师 、 实 证 分 析 18 4 
防范 策略 16 1 比较 、 学 术 诚 信 、 学 术 道 德 失范 17 3 
美国 15 1 现状 16 1 
研究 生 教育 、 高 校 教 师 、 大 学 生 14 3 实践 15 1 
学 术 失 范 13 1 制度 14 2 
学 位 论文 、 学 术 腐 败 12 2 论文 撤销 、 学 术 道德 教育 13 2 
治理 、 文 字 复 制 比 、 期 刊 编辑 等 11 8 学 位 论文 12 1 
影响 因素 、 一 稿 多 投 、 学 术 论 文 9 4 作用 11 1 
ie eer $ 8 检测 、 特 点 i 5 
学 术 责 任 、 学 术 生 态 、 学 术 伦理 等 7 7 成 因 、 规 范 、 科 技 期 刊 编辑 9 7 
制度 建设 、 审 稿 专家 、 数 据 库 等 6 10 科研 人 员 、 路 径 、 学 术 论文 8 3 
自律 、 著 作 权 、 同 行 评 议 等 5 13 策略 、 创 新 、 期 刊 7 8 
重复 率 、 治 理 体系 、 知 识 产权 等 4 Ree ES 4 5 
学 术 制 度 、 学 术 环境 、 实 证 分 析 等 3 44 诚信 、 存 在 问题 、 管 理 等 5 15 
作者 、 职 称 评定 、 职 业 伦理 等 2 147 伦理 学 、 科 研 管理 、 学 术 行 为 等 4 24 
作者 资格 、 作 者 信息 、 自 我 唱 窃 等 1 1254 “| 案例 分 析 、 编 辑 部 、 博 士 生 等 3 61 
CNKI、 参 考 文献 、 大 数据 等 2 181 
jn SWOT 分 析 、 科 技 查 1 1094 
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关键 词 和 标题 分 词 的 多 样 性 见 表 2。 从 表 2 
中 可 看 出 ， 对 于 所 有 词 频 的 关键 词 ， 其 丰富 度 
指数 为 1 541, Shannon-Wiener 48204 6.25, +5 
匀 度 指数 为 0.85; 对 于 所 有 词 频 的 标题 分 词 ， 
其 丰富 度 指数 为 1 432，Shannon-Wiener 指数 为 
6.26， 均 匀 度 指数 为 0.96。 关 键 词 的 丰富 度 大 
于 标题 分 词 的， 二 者 的 Shannon-Wiener 指数 较 
接近 ， 关 键 词 的 均匀 度 指 数 小 于 标题 分 词 的 ， 
这 是 由 于 后 者 各 个 词语 的 数量 比 前 者 更 接近 ， 
分 布 更 均匀 。 因 为 两 个 单元 内 词 频 为 1 的 词语 
数量 较 多 ， 所 以 词 频 >2 的 关键 词 和 标题 分 词 
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的 丰富 度 均 大 幅 下 降 ， 关 键 词 的 丰富 度 下 降 了 
81.38%， 标 题 分 词 的 丰富 度 减少 了 76.40%， 前 
者 的 丰富 度 (287) 和 多 样 性 (4.54) 均 小 于 后 
者 的 丰富 度 (338) 和 多 样 性 (4.86 ) ， 但 二 者 
的 均匀 度 相 近 。Sgrensen 指数 (Cs) 和 Jaccard 
指数 (C,) 是 用 来 衡量 两 个 单元 相似 度 的 指标 。 

在 本 研究 中 ， 所 有 频次 的 关键 词 和 标题 分 词 两 
个 单元 的 相似 性 较 低 ,Cs 和 C 的 数值 分 别 为 0.39 
和 0.24; 对 于 频次 >2 的 词语 ， 两 个 单元 的 相似 
性 比 前 者 稍 高 ，Cs 和 C 分 别提 高 了 17.95% 和 
25%， 但 也 是 弱 相 关 。 


表 2 关键 词 和 标题 分 词 的 多 样 性 


项 目 S H 


E C C 


H Ss J 
所 有 关键 词 1 541 6.25 0.85 
0.39 0.24 
所 有 标题 分 词 1 432 6.26 0.96 
>2 次 关键 词 287 4.54 0.80 
sé . 0.46 0.30 
>2 次 标题 分 词 338 4.86 0.83 


© 利用 关键 词 和 标题 分 词 绘制 知识 
图 谱 
3.1 图 谱 参 数 比 较 

基于 2010 - 2019 年 间 发 表 论 文 的 关键 词 
和 标题 分 词 ， 按 照 统一 的 参数 设置 ， 可 以 生成 
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(a) 采用 关键 词 绘制 的 词语 共 现 网 络 


如 图 1 所 示 的 共 现 网 络 。 需 要 说 明 的 是 ， 软 件 
选取 每 一 年 中 被 引 次 数 排名 居 前 50 位 的 词语 ， 
且 每 个 词语 至 少 出 现 2 次 。 在 图 1 中 ， 数 字 代 
表 聚 类 主题 的 ID 号 ; 每 个 节点 代表 一 个 关键 词 ， 
节点 的 大 小 表示 关键 词 的 出 现 频次 。 
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#0 学 术 不 端 行为 ， SS 


AN 人 d 
OAKA E 
Usro 二 
‘ Ss ‘ 4% Kok e 
+#1 PORRE R, 
4 j 7 — ome 
MES qo Wg is be EF 
1» A A Ki 5 1 f 
2 E 2 Pi 
1 we A De 7 
1 #2 实践 y * 3 sow 5 


O) 采用 标题 分 词 绘制 的 词语 共 现 网 络 


1 采用 关键 词 和 标题 分 词 绘制 的 知识 图 谱 
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知识 图 谱 左上 角 的 数据 是 该 图 谱 的 参数 ， 
主要 包括 使 用 软件 信息 、 运 行 时 间 、 数 据 存放 
位 置 、 时 间 切 片 ( Timespan ) 选择 标准 ( Selection 
Criteria) 、 生 成 网 络 (Network) 、 裁 剪 方法 
(Pruning ) 、 模 块 度 ( Modularity ) 以 及 平均 轮 
BBE (Mean Silhouette ) 等 。 其 中 ， 软 件 信息 、 
运行 时 间 、 数 据 存放 位 置 、 时 间 切 片 、 选 择 参 
数 属于 软件 设置 参数 ， 生 成 网 络 、 最 大 的 分 支 、 
裁剪 方法 、 模 块 度 以 及 平均 轮廓 值 属 于 网 络 生 
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成 参数 ， 可 用 于 解读 图 谱 的 信息 。 表 3 为 分 别 
采用 关键 词 和 标题 分 词 所 绘制 图 谱 的 参数 ， 包 
括 N, E, Density, Modularity, Silhouette , 
Largest CC. N 表示 网 络 节 点 数量 ; E 表示 连 线 
数量 ; Density 表示 网 络 的 密度 ; Modularity 表 
示 网 络 的 模块 度 ， 值 越 大 表示 网 络 的 聚 类 结果 
越 好 ; Mean Silhouette 表示 聚 类 平均 轮廓 值 ， 
Silhouette 值 是 用 来 衡量 网 络 同 质 性 的 指标 ， 越 
接近 1， 网 络 的 同 质 性 越 高 。 


表 3 基于 关键 词 和 标题 分 词 所 绘制 知识 图 谱 的 参 关 


词语 来 源 N E 
关键 词 115 327 
标题 分 词 131 420 


从 表 3 可 以 看 出 ， 基 于 关键 词 绘制 的 图 
谱 ， 其 网 络 节 点 数 有 115 个 ， 连 线 数 有 327%, 
网 络 密度 为 0.049 9; 基于 标题 分 词 绘制 的 图 
谱 ， 网 络 节 点 数 和 连 线 数 分 别 为 131 个 和 420 
条 ， 比 前 者 分 别 增加 了 13.91% 和 28.44%， 
网 络 密度 为 0.049 3， 和 前 者 相近 。Modularity 
和 Mean Silhouette 是 反映 图 谱 整 体 框架 特征 
的 重要 参数 。 在 采用 关键 词 绘制 的 图 谱 中 ， 
Modularity 值 和 Silhouette {A 分 别 为 0.435 2 
和 0.366 7。 在 采用 标题 分 词 绘制 的 图 谱 中 ， 
Modularity 值 为 0.411 5， 比 前 者 低 5.7%; 
Silhouette 值 为 0.493 5， 比 前 者 高 34.58%， 说 
明 前 者 所 有 集群 的 同 质 化 程度 低 于 后 者 。 二 者 
的 Modularity 值 均 大 于 0.3， 一 般 认 为 聚 类 模 
块 值 >0.3 意味 着 聚 类 结构 显著 ， 说 明 无 论 是 采 
用 关键 词 还 是 标题 分 词 绘 制 的 图 谱 ， 其 结构 均 
符合 聚 类 要 求 。 

3.2 图 谱 词 语 比较 

在 图 谱 中 ,词语 的 频次 高 低能 够 反映 出 该 
领域 研究 的 总 体 状况 ， 每 一 个 词语 对 应 图 谱 上 
的 一 个 节点 。 即 采用 关键 词 和 标题 分 词 绘制 共 
现 图 谱 的 词语 分 别 为 115 个 和 131 个 。 

表 4 为 基于 关键 词 和 标题 分 词 绘制 图 谱 中 
词 频 >30 的 词语 信息 ， 包 括 词语 、 词 语 出 现 的 


Density Modularity Silhouette 
0.049 9 0.435 2 0.366 7 
0.049 3 0.411 5 0.493 5 


词 频 以 及 其 中 介 中 心性 。 中 介 中 心性 是 测定 节 
点 在 网 络 中 重要 性 的 一 个 指标 ， 是 一 个 用 以 量 
化 点 在 网 络 中 地 位 重要 性 的 图 论 概念 站。 词语 
的 中 介 中 心 度 越 大 ,说 明 其 在 图 谱 中 的 重要 性 
越 大 。 在 采用 关键 词 绘制 的 图 谱 中 ， 词 频 >30 
的 词语 有 9 个 ， 词 频 加 起 来 共 782 次 。 其 中 ， 
词 频 最 高 的 学 术 不 端 行为 ， 共 出 现 340 次 ， 其 
次 为 科研 诚信 ( 92 次 ) 、 学 术 道 德 (76 次 ) 、 
研究 生 (67 次 ) ， 其 中 介 中 心性 分 别 为 0.38、 
0.23 、0.2、0.32。 虽 然 词 语 的 频次 排序 与 中 介 
中 心 度 并 非 一 一 对 应 ， 但 在 整体 上 是 基本 一 臻 


的 。 在 采用 标题 分 词 绘制 的 图 谱 中 ， 


词 频 >30 


的 词语 有 7 个 ， 


词 频 639 次 ， 词 语 和 词 频 量 均 


小 于 前 者 。 但 主要 的 词语 和 前 者 的 相近 ， 都 包 


括 了 学 术 不 端 行为 、 科 研 诚信 、 


究 生 、 科 技 期 7 


学 术 道 德 、 人 研 
判 以 及 高 校 等 ， 词 频 最 高 的 词语 


也 是 学 术 不 端 行为 (262 次 ) ， 其 中 介 中 心性 
最 高 (0.39 ) 。 
3.3 图 谐 罕 类 比较 

聚 类 分 析 法 是 一 种 探索 性 数据 挖掘 分 析 方 
法 ， 可 用 于 识别 和 分 析 特 定 研究 领域 中 显著 术 
语 和 背景 的 分 类 ， 利 用 一 系列 的 算法 将 收集 到 
的 数据 转换 成 几 个 结构 化 的 集群 ， 从 而 发 现 知 
识 领域 的 主题 分 布 和 组 织 结 构 "。 
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表 4 基于 关键 词 和 标题 分 词 绘制 图 谱 中 词 频 达 30 的 词语 (节点 ) 信息 


序号 Wi 关键 词 中 介 中 心性 | 序号 ia 标题 分 词 中 介 中 心性 
1 340 学 术 不 端 行为 0.38 1 262 ”学 术 不 端 行为 0.39 

2 92 科研 诚信 0.23 2 107 人 研究 生 0.37 

3 76 学 术 道 德 0.20 3 84 高 校 0.29 
4 67 研究 生 0.32 4 64 科研 诚信 0.20 

5 48 学 术 规范 0.09 5 45 学 术 道 德 0.16 

6 45 科技 期 刊 0.18 6 43 科技 期 刊 0.07 

7 43 学 术 期 刊 0.23 7 34 治理 0.10 

8 37 高 校 0.13 

9 34 ”学 术 不 端 文献 检测 系统 0.06 


从 图 1 可 以 看 出 , 采用 关键 词 绘制 的 图 谱 ， 
共聚 合成 6 个 主题 ,集群 从 大 到 小 依次 为 #0 学 
术 道 德 、# 责任 编辑 、 埠 SORT, #8 学 位 论 
SC, #4 科研 管理 和 兹 失范 。 在 采用 标题 分 词 绘 
制 的 图 谱 中 ， 也 聚合 成 6 个 主题 ， 从 大 到 小 依次 
JI HO 学术 不 端 行为 、#1 科研 诚信 、 坊 SBR. #3 
学 术 道德 失范 、# 论文 撤销 和 #5 RETR. TS 


谱 中 每 个 集群 的 信息 见 表 5， 涵盖 了 各 个 集群 包 
含 的 节点 以 及 该 群 的 轮廓 值 (Silhouette) o MÆ 
5 可 以 看 出 ， 在 采用 关键 词 绘制 的 图 谱 中 ， 各 个 
集群 的 轮廓 值 都 较 高 ; 在 采用 标题 分 词 绘制 的 图 
谱 中 ,除了 #1 的 轮廓 值 稍 低 (0.375 ) ， 其 他 集 
群 的 同 质 化 程度 都 很 高 ， 再 结合 图 1 中 的 参数 情 
况 ， 可 以 得 出 ， 两 幅 图 在 聚 类 方面 是 理想 的 。 


表 5 基于 关键 词 和 标题 分 词 绘制 图 谱 中 各 集群 信息 


关键 词 图 谱 群 号 大 小 Silhouette 标题 分 词 图 谱 群 号 大 小 Silhouette 
0 23 0.623 0 28 0.868 
1 20 0.787 1 28 0.375 
2 19 0.774 2 22 0.749 
3 15 0.806 3 21 0.816 
4 15 0.715 4 18 0.645 
5 11 0.796 5 4 0.963 


根据 聚 类 主题 的 语义 结构 和 研究 主题 的 相 
关 性 ,分 别 将 二 者 的 集群 进行 整合 。 采 用 关键 
词 绘制 的 图 谱 可 整合 为 三 大 知识 域 , 分 别 是 学 
术 不 端的 行为 和 该 方向 研究 的 两 大 主要 领域 (期 


现 了 高 校 是 学 术 不 端 研 究 的 另 一 重要 领域 。 采 
用 标题 分 词 绘制 的 图 谱 中 的 聚 类 也 可 整合 为 三 
大 知识 域 : 第 一 个 知识 域 包括 #0 学 术 不 端 行为 、 
#1 科研 诚信 和 #3 学 术 道德 失范 ， 说 明 学 术 不 端 


刊 和 高 校 ) 。 第 一 个 知识 域 包括 #0 学 术 不 端 行 
为 和 #5 失范， 研究 主题 涵盖 学 术 不 端的 具体 表 
现 ; 第 二 个 知识 域 包括 #1 责任 编辑 和 # 学术 
期 刊 ， 反映 了 期 刊 是 该 领域 的 研究 重点 ; 第 三 
个 知识 域 涵盖 #53 学 位 论文 和 大 科研 管理 ， 体 


研究 的 问题 主要 集中 在 学 术 不 端 行为 、 科 研 诚 
信 、 学 术 道德 失范 等 方面 ; 第 二 个 知识 域 涵 盖 
#2 KIRA #5 RR, 主要 体现 了 学 术 不 端的 防范 ， 
这 一 问题 又 可 以 分 为 素养 教育 培训 和 体系 构建 
两 个 维度 ; 第 三 个 知识 域 即 #4 论文 撤销 ， 主 要 
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研究 学 术 不 端的 后 果 以 及 撤销 论文 带 来 的 影响 
等 。 

采用 关键 词 和 标题 分 词 绘制 的 图 谐 ， 其 聚 
类 结构 既 有 相同 ， 也 存在 一 定 的 差异 ， 这 与 词语 
的 来 源 相 关 。 来 源 为 关键 词 的 一 部 分 属于 表达 核 
心 主题 因素 的 词语 ， 可 表达 论文 主题 的 关键 性 因 
素 ; 一 部 分 属于 非 核心 主题 因素 的 词语 号 ， 包 
括 对 核心 主题 因素 起 限定 修饰 作用 的 概念 、 核 
心 主题 因素 的 具体 研究 内 容 、 研 究 过 程 中 所 应 
用 的 新 方法 及 改进 的 常规 方法 、 对 核心 主题 因 
素 起 限定 作用 的 时 间 和 空间 因素 等 ， 这 两 类 词 
语 共同 概括 了 文章 的 主题 、 表 达 了 内 容 的 核心 。 
来 源 为 标题 分 词 的 是 对 文章 标题 进行 分 词 而 产 
生 的 ,标题 是 文章 精 要 内 容 的 提炼 、 概 括 与 浓缩 ， 
切 分 后 大 多 数 属于 表达 核心 主题 因素 的 词语 ， 


而 非 核心 主题 因素 的 词语 较 少 ， 可 能 会 缺少 某 
些 非 核心 因素 、 补 充 性 的 词语 ， 从 而 在 一 定 程 


度 上 有 别 于 文章 的 关键 词 。 采 用 关键 词 和 标题 
分 词 绘制 的 图 谱 均 可 清晰 、 客 观 地 展现 学 术 不 
端 研 究 领 域 的 研究 主题 , 但 由 于 词语 来 源 不 同 、 
性 质 不 同 ， 图 谱 所 表达 的 侧重 点 亦 不 同 。 采 用 
关键 词 绘制 的 图 谱 侧 重 于 体现 学 术 不 端 研 究 的 
问题 ， 采 用 标题 分 词 绘制 的 图 谱 更 倾向 于 学 术 
不 端 研 究 的 方式 方法 。 
Onesie 

(1) CiteSpace 软件 的 应 用 拓展 。 如 何 从 海 
量 的 文献 信息 中 快速 厘清 从 事 领域 的 研究 架构 ， 
找到 最 重要 、 最 关键 的 有 效 信息 ， 了 解 其 过 去 、 
现在 及 趋势 ， 是 科学 研究 中 面临 的 难题 。 知 识 
图 谱 的 出 现 为 解决 上 述 难题 提供 了 有 益 的 科学 
探索 途径 。 信 息 可 视 化 软件 CiteSpace 是 一 款 功 
能 强大 的 工具 , 所 绘制 的 图 谱 具 有 “一 图 展 春 秋 ， 
一 览 无 余 ; 一 图 胜 万 言 ,一 日 了 然 ” 的 特点 P, 
从 其 问世 便 得 到 广泛 的 应 用 。 目 前 ，CiteSpace 
软件 只 能 用 于 分 析 特 定数 据 库 中 的 文献 信息 ， 
包 插 WoS, Scopus, ADS, arXiv, CNKI, 
CSSCI, NSF, CSCD, Derwent 专利 数据 库 等 ， 
而 对 于 上 述 数据 库 以 外 的 数据 信息 ， 还 不 能 直 


ChinaXiv 合 作 期 刊 
知识 管理 论坛 ，2021 (1) :46-55 
DOI: 10.13266/j.issn.2095-5472.2021.005 


接 进 行 分 析 。 笔 者 采用 格式 转化 软件 对 非 指定 
数据 库 中 的 数据 进行 格式 的 转化 处 理 ， 使 其 成 
为 CiteSpace 软件 能 够 识别 分 析 的 数据 。 研 究 结 
果 显 示 ， 该 方法 科学 有 有效， 拓展 了 CiteSpace $K 
件 的 应 用 数据 源 ， 可 以 为 非 CiteSpace 指定 数据 
库 数据 的 可 视 化 分 析 提 供 参 考 。 

(2) 关键 词 与 标题 分 词 的 多 样 性 。 语 言 作 
为 逻辑 思维 和 推理 工具 ， 其 基本 要 素 是 语词 "。 
笔者 以 学 术 文 献 中 的 关键 词 和 标题 分 词 作 为 
概念 演化 基础 ， 尝 试 采 用 丰富 度 指数 (5S) 、 
Shannon-Wiener 多 样 性 指数 ( 玉 ') 、 均 匀 度 指 
#(E,,) ~ Sorensen 指数 ( Cs ) 和 Jaccard 指数 (CC,)) 
等 比较 两 种 词语 的 多 样 性 。 

对 于 “学 术 不 端 ” 的 研究 ， 论 文 关 键 词 比 
标题 分 词 的 词语 多 109 个 ,但 出 现 频次 较 高 的 
一 些 词语 还 是 一 致 的 。 说 明 不 管用 标题 分 词 还 
是 论文 关键 词 ， 其 最 核心 的 词语 是 相同 的 。 对 
于 所 有 词语 而 言 ， 关 键 词 的 丰富 度 大 于 标题 分 
词 ， 多 样 性 指数 二 者 较 接 近 。 因 为 标题 分 词 各 
个 词语 的 数量 比 前 者 分 布 更 均匀 ， 所 以 其 均匀 
度 稍 高 。 由 于 去 除了 词 频 等 于 1 的 大 量词 语 ， 
对 于 词 频 >2 的 关键 词 和 标题 分 词 ， 其 词语 的 丰 
富 度 比 所 有 词语 时 均 大 幅 下 降 。 关 键 词 的 丰富 
度 和 多 样 性 均 小 于 后 者 ， 但 二 者 的 均匀 度 较 相 
近 。 在 本 研究 中 ,不 管 是 所 有 频次 的 关键 词 和 
标题 分 词 还 是 词 频 大 于 2 的 词语 ， 两 个 单元 的 
相似 性 都 较 弱 ， 说 明 二 者 是 差异 较 大 的 两 个 单 
元 ， 这 为 后 续 知 识 图 谱 的 绘制 提供 了 支撑 。 

(3 ) 关键 词 和 标题 分 词 的 共 现 网 络 。 关 键 
是 为 了 便于 文献 索引 、 文献 标 引 和 检索 全 文 ， 
并 从 论文 中 选取 出 来 表示 全 文 主题 内 容 的 词 或 
词组 。 在 对 常规 数据 库 中 的 数据 进行 分 析 时 ， 
CiteSpace 软件 会 自动 提取 文献 的 关键 词 ， 这 些 
关键 词 既 包 括 表 达 核 心 主题 因素 的 词语 ， 又 包 
括 非 核心 主题 因素 的 词语 。 在 本 研究 中 ， 还 通 
过 对 论文 标题 进行 分 词 来 获取 词语 ， 所 获取 的 
词语 大 多 数 属 于 表达 核心 主题 因素 的 词语 ， 而 
非 核心 主题 因素 的 词语 较 少 。 关 键 词 和 标题 分 
词 都 包含 了 表达 核心 主题 因素 的 和 非 核心 主题 
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因素 的 词语 ,但 词语 的 数量 和 内 容 还 是 存在 差 
异 的 , 因此 基于 关键 词 和 标题 分 词 绘 制 的 图 谱 ， 
既 有 相同 ， 也 存在 一 定 的 差异 。 相 同 的 是 ， 两 
种 方式 绘制 的 知识 图 谱 均 能 清晰 、 客 观 地 展现 
“学 术 不 端 ” 人 研究 领域 的 相关 主题 。 不 同 的 是 ， 
虽然 采用 同样 的 参数 设置 ， 但 两 种 方式 从 各 自 
的 维度 出 发 ， 揭 示 了 不 同 的 “学 术 不 端 ” 领 域 
研究 主题 : 采用 关键 词 绘制 的 图 谱 更 侧重 于 体 
现 学 术 不 端 研究 的 问题 ， 采 用 标题 分 词 绘制 的 
图 谱 则 更 倾向 于 学 术 不 端 研 究 的 方式 方法 。 
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Diversity of Keywords and Title Segmentation Words and a Comparison of Their Knowledge 
Mappings 


Li Jihong Xu Guizhen Jiang Shan Wang Hongjiang 

Institute of Agricultural Economy and Information, Anhui Academy of Agricultural Sciences, Hefei 230031 

Abstract: [Purpose/significance] This paper aims to explore the diversity of keywords and title 
segmentation words, the differences of the knowledge mappings drawn based on them. [Method/process] 
We selected papers related to “academic misconduct” from CNKI from 2010 to 2019, used diversity indexes 
to analyze the characteristics of keywords and title segmentation words quantitatively, and compared their 
knowledge mappings by Citespace software qualitatively. [Result/conclusion] The results have shown that 
the richness index (S), Shannon-Wiener diversity index (H°) and Pielou evenness index (Ey) of keywords 
were different from those of title segmentation words, and the similarity of these two units was low, 
indicating the keywords and title segmentation words are two different units in this paper. Although there are 
differences in the knowledge mappings drawn based on keywords and title segmentation words, both of them 
can demonstrate the research topics in the field of “academic misconduct” from their perspectives. 

Keywords: academic misconduct keyword title Chinese word segmentation diversity 
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